روش های اندازه گیری هوش

هر آزمون مفید هوش، باید نتاج هماهنگ و قابل تکراری را فراهم کند؛ به گونه ای که عملکردهای افراد با بتوان با یکدیگر مقایسه کرد. برای سنجش پایایی آزمون ها، سه روش اصولی وجود دارد که هر کدام مقیاس ثابتی را ارائه می دهد

نویسندگان: یان کریستنسن، هاگ واگنر و سباستین هالیدی
مترجمان: ابوالقاسم بشیری، جمشید مطهری و رحیم میردریکوندی

نکات کلیدی

پایایی:

اعتبار:

اعتبار یک آزمون هوش، باید در ارتباط با تعریف خاصی از هوش و هدفی که آزمون برای آن طراحی شده، ارزیابی شود؛ بنابراین دامنه ای از روش ها وجود دارد. غالباً وقتی در مورد اعتبار یک آزمون استدلال هایی ارائه می شود، آخر یک دور باطل وجود دارد؛ به این دلیل که دشوار است گفته شود که آیا اعتبار ضعیف، از آزمون های ضعیف یا سرچشمه گرفته است از تعریف نامناسب هوش.

هنجاریابی: (1)

هنجاریابی، بخشی از فرآیند ساختن هر آزمون هوش است. نخست آزمون روی یک نمونه معرف از میان جامعه ی آماری که آزمون برای ارزیابی آن ها طراحی شده، اجرا می شود؛ سپس ویژگی های آماری نمره گذاری با استاندارد کردن نمره ی میانگین به نمره ی صد (100) و انحراف معیار (2) شانزده (16) منطبق می شوند. نمره های استاندارد شده نهایی، هنجارها را برای آزمون تشکیل می دهد و عملکرد هر فرد در مقابله با آن ها ارزیابی می شود. بعضی از آزمون ها زیرمقیاس و حتی خرده آزمون هایی دارند که برای اهداف ارزیابی تخصصی به صورت جداگانه هنجاریابی شده اند.
عملاً، هوش نیز مانند شخصیت به کمک آزمون هایی که برای ارزیابی آن به کار گرفته شده است،‌ تعریف می شود. با وجود این، از لحاظ تاریخی بر اندازه گیری و مقایسه ی افراد با همسالانشان در زمینه هوش، تأکید زیادی شده است، و شیوه هایی برای اندازه گیری پایایی و اعتبار آزمون و تعیین نرم های لازم به طور گسترده بررسی شده است.

پایایی

پایایی یک آزمون، عبارت است از این که تا چه حد آن آزمون نتایج منسجم و قابل تکرار را فراهم می کند. این ویژگی را از سه راه می توان اندازه گیری کرد: 1. اگر آزمون را در دو موقعیت به فاصله چند هفته یا چند ماه روی گروهی از افراد اجرا کنیم، به همبستگی بین این دو دسته نمره پایایی باز آزمایی (3) آزمون خوانده می شود؛ 2. با دو نیمه کردن یک آزمون (برای مثال، به وسیله ی رده بندی همه ی پرسش ها شماره فرد به یک خرده آزمون و همه پرسش های شماره زوج به خرده آزمون دیگر) سپس به دست آوردن همبستگی بین دو نیمه مقیاسی به دست می آید که آن را پایایی دو نیمه کردن (4) می نامند؛ 3. ساختن دو آزمونی که نسبت به یکدیگر هم ارز هستند و همبستگی نتایجی که از هر کدام به دست می آید (مانند فرم L و فرم M آزمون استنفورد - بینه) (5) به اندازه ای منتهی می شود که آن را پایایی فرم های موازی (6) می نامند. این شیوه، غیر متداول ترین شیوه است؛ زیرا ساخت و استاندارد کردن آزمون هزینه زیادی در بردارد. به طور کلی برای هر یک از این روش ها ضریب همبستگی پایایی، بیش از 85 درصد گزارش شده است.

اعتبار

اعتبار یک آزمون، یعنی این که آزمون تا چه اندازه آنچه را که مورد نظر است، می سنجد. اعتبار آزمون را با سه شیوه ی اساسی می توان ارزیابی کرد:
1. اعتبار محتوا (7) که عبارت است از بررسی پرسش های آزمون جهت اطمینان یافتن از این که آن ها پرسش های مناسبی هستند یا نه. اگر این کار تنها با بررسی و کنترل پرسش ها انجام شود، «اعتبار صوری» (8) نامیده می شود. این کار سطحی به نظر می رسد؛ ولی آزمونی که مؤلفه های آن ارتباطی با ویژگی مورد نظر برای اندازه گیری نداشته باشد، احتمالاً نه مورد قبول کسی است که تست را انجام می دهد و نه مورد قبول کسی که تست روی او انجام می گیرد،‌ و مهم هم نیست که چه شواهد تحقیقاتی ممکن است ارائه شود که آن را تأیید کنند. روند دقیق تری که روش آماری را نیز در بر دارد، «روش تحلیل عاملی» (9) نامیده می شود که به شناسایی عواملی یا توانایی های که یک آزمون واقعاً آن ها را اندازه گیری می کند،‌ کمک می کند. اگر آزمونی تنها برای اندازه گیری توانایی کلامی طراحی شده باشد و فقط یک عامل را آشکار می سازد که همه ی مؤلفه ها به طور معناداری در آن سهیمند، اعتبار عاملی (10) خوبی دارد؛ 2. اعتبار معیار با مقایسه ی نتایج آزمون با برخی معیارهای بیرونی مانند عملکرد در یک امتحان اندازه گیری می شود، گاهی اوقات ممکن است یک آزمون برای پیش بینی عملکردی (برای مثال به منزله بخشی از یک سیر گزینش) به کار گرفته شود که در این مورد میزان توفیق این پیش بینی، معیار و مقیاس اعتبار پیش بینی است. مشکلی که در این روش وجود دارد، این است که عملکرد در تکلیف معیار به طور اجتناب ناپذیری از عوامل دیگری غیر از هوش متأثر خواهد شد، و این به نوبه ی خود همبستگی بین نمره های آزمون و عملکرد معیار را کاهش می دهد و سبب می شود که تخمین زدن مقدار حقیقی دشوار شود؛
3. اعتبار سازه ای (11) همیشه در یک نظریه خاص هوش ریشه دارد. اگر یک آزمون نتایجی را پدید آورد که به کمک نظریه ای پیش بینی می شود، در این صورت گفته می شود که این آزمون اعتبار سازه ای خوبی دارد. برای نمونه، اگر یک نظریه خاصی اقتضا کند که با افزایش سن، هوش افزایش پیدا می کند و در مورد آزمون خاصی نیز این چنین باشد، در این صورت آن آزمون با توجه به آن نظریه، اعتبار سازه ای دارد. متأسفانه وقتی نتایج پیش بینی شده به وقوع نپیوندد، ابهاماتی به وجود می آید مبنی بر این که یا نظریه اشتباه است یا آزمون یک آزمون ضعیفی است؛ حتی ممکن است به دست نیاید که سرانجام کدام توجیه صحیح است.

هنجاریابی

بینه و سیمون اولین آزمون جدید هوش را به منظور تشخیص کودکانی که می بایست از آموزش جبرانی بهره مند شوند،‌ تدوین کردند. بینه جدول هایی از عملکرد متوسط (12) بر اساس آزمون را برای بچه ها در سنین مختلف فراهم کرد، و سپس نمره ی هر کودک را در این جدول ها قرار داد (که هنجارهای سنی گفته می شوند)؛ او بدین صورت سن عقلی (13) کودکان را به دست آورد. بدین ترتیب، اگر نمره ی یک کودک شش ساله مساوی با یک کودک هفت ساله باشد، سن عقلی این کودک، هفت سال خواهد بود؛ سپس سن عقلی کودک بر سن تقویمی او تقسیم و حاصل آن در عدد صد ضرب می شود

تا بهره ی هوشی (IQ) او مشخص شود.
در ادامه آزمون های هوش دیگری با روشی مشابه بینه برای بزرگسالان ساخته شد. یکی از نمونه های معروف آن، مقیاس هوش بزرگسالان وِکسلر (14) (WAIS) است. این آزمون مرکب از یازده خرده آزمون است که بعضی از آن ها می توانند به صورت مجزا برای اهداف خاصی هنجاریابی شوند. نمره های خرده آزمون ها به گونه ای با هم جمع می شوند که دو نمره ی فرعی (15)، یعنی نمره ی عملی و نمره ی کلامی به دست آید. این نمره ها به نوبه ی خود با هم جمع می شوند تا نمره ی کل مقیاس مشخص شود؛ سپس این نمره با هنجارها مقایسه می شود تا مقدار بهره ی هوشی IQ به دست آید (نمودار 1).
بعضی از پرسش های آزمون وکسلر WAIS شدیداً به فرهنگ سفید پوستان اِمریکایی و روان بودن در زبان انگلیسی وابسته است. (برای نمونه خرده آزمون درک مطلب شامل پرسش هایی در مورد معنای ضرب المثل هاست) و (آزمون واژگان نیاز به معنا کردن کلمات دارد)؛ بنابراین اگر افرادی که از فرهنگ های دیگری هستند و زبان متفاوتی دارند با آزمون هایی که چنین سوگیری فرهنگی (16) دارند، ارزیابی شوند، به طور مسلَّم دچار مشکل می شوند.

** توضیح تصویر:
شکل 1. خرده آزمون و خرده مقیاس های وکسلر.
آزمون های جدید را جهت هنجاریابی روی نمونه ی بزرگی از افراد (گروه نُرم) که معرف جامعه ای است که آزمون برای آن ها ساخته شده، اجرا می کنند. آزمون ها در حال حاضر به گونه ای نمره گذاری می شوند که نمره ها به صورت نرمال با میانگین صد (100) و انحراف معیار شانزده (16) یا در همین حدود توزیع می شوند. با به کارگیری ویژگی های توزیع نرمال، نمره ی یک فرد بر حسب درصد جمعیتی که انتظار می رود، همان نمره یا مقداری کمتر از آن را به دست آورد، تفسیر می شود. در مثال بالا، فردی که نمره ی هوش بهر او 116 یعنی (یک انحراف معیار بالاتر از میانگین) است، ‌کسی است که باهوش تر از 84 درصد افراد گروه نرم می باشد. در این آزمون ها دیگر نظر درباره هوش بهر، یعنی نسبت سن عقلی به سن تقویمی مورد استفاده قرار نمی گیرد.

پی نوشت ها :

1. Standrdization.
2. standard deviation.
3. test - retest.
4. split half reliability.
5. standford - Binet test.
6. parallel form reliability.
7. content validity.
8. face validity.
9. factor analysis technique.
10. factorial validity.
11. criterion validity.
12. average.
13. mental age.
14. Wechsler Adult Intelligence Scale.
15. sub - scores.
16. cultural bias.

منبع مقاله :
کریستنسن، یان و هاگ واگنر و سباستین هالیدی؛ (1385)، روان شناسی عمومی، گروه مترجمان، قم، مرکز انتشارات مؤسسه آموزشی و پژوهشی امام خمینی (رحمه الله)، چاپ اول.

#علوم انسانی #روان‌شناسی

مقالات مرتبط

تازه های مقالات

ارسال نظر

نظرات کاربران